Day21：理解 RPKM 計算與數據準備

2024 iThome 鐵人賽

DAY 21

自我挑戰組

16th鐵人賽 python 生物醫學基因表現量網路爬蟲

1331 瀏覽

在基因表現量的分析中，RPKM（Reads Per Kilobase of transcript, per Million mapped reads）是用來標準化基因表現量的常用方法，今天我將解釋 RPKM 計算的原理，並確保所需的基因數據已經準備好。

首先我先簡單說明 RPKM 的計算公式。RPKM 是一種衡量基因在不同樣本中的表現量的標準化方法，它考慮了基因的長度以及每個樣本中的總讀數，從而消除樣本之間的技術變異。

RPKM 的計算公式如下：

RPKM = (Read Count / Gene Length (kb)) / Total Reads (millions)

這個公式中：

接下來我必須查看前面幾天所爬取的數據是否 OK，這些數據的前處理包刮：

以下是準備計算總讀數的代碼：

# 提取樣本的讀數數據，假設讀數從第二列到第89列
read_counts = df.iloc[:, 1:89]

# 計算每個樣本的總讀數
total_reads = read_counts.sum(axis=0)
print(total_reads)

在上面這段 Code 中，我提取了樣本中的讀數數據，然後使用 sum() 函數計算每個樣本的總讀數，這些總讀數將用於後續的 RPKM 計算。

相信經過上面的介紹，能夠初步理解了 RPKM 的計算公式，並準備好所需的數據；接下來我將開始進行實際的 RPKM 計算，並使用這些數據來衡量每個基因在不同樣本中的表現量。

系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言

IT邦幫忙